Research in Computing Science, Vol. 56, pp. 131-143, 2012.
Abstract: El problema de compilación automática de los corpus es uno de los problemas importantes de lingüística computacional. En los corpus tradicionales algunas palabras tienen demasiada ocurrencia y algunas tienen poca o ninguna ocurrencia según la ley de distribución de palabras de acuerdo a su rango: la ley de Zipf. En el trabajo proponemos el concepto del corpus representativo morfológicamente —cuando para cada palabra de alguna lista se garantiza por lo menos algún número determinado de contextos— y se describe un ejemplo de aplicación al español: la compilación automática de tal corpus a través de Internet, incluyendo la preparación de los datos iniciales y el filtrado de los contextos.
Keywords: Corpus representativo, español, representatividad morfológica, Internet
PDF: Corpus morfológicamente representativo: preparación de datos y compilación para el español
PDF: Corpus morfológicamente representativo: preparación de datos y compilación para el español